[レポート] Multicloud and on-premises data transfers at scale with AWS DataSync に参加しました #AWSreInvent #STG353
AWS DataSyncのビルダーズセッションに参加しましたのでご紹介します。
概要
Join this builders’ session to immerse yourself in the world of multi-cloud and on-premises data transfers. Learn how to configure and perform a data transfer from an on-premises NFS server and a publicly accessible Google Cloud Storage bucket that is hosting a public dataset to Amazon S3. AWS DataSync makes it fast and simple to migrate your data from other clouds or on-premises NFS servers to AWS as part of your business workflow. Walk away with a step-by-step guide on how to scale out DataSync tasks using multiple DataSync agents. You must bring your laptop to participate.
以下、翻訳です。
このビルダー セッションに参加して、マルチクラウドとオンプレミスのデータ転送の世界にどっぷり浸ってください。オンプレミスの NFS サーバーと、パブリック データセットをホストしているパブリックにアクセス可能な Google Cloud Storage バケットから Amazon S3 へのデータ転送を設定して実行する方法を学びます。AWS DataSync を使用すると、ビジネスワークフローの一部として、他のクラウドまたはオンプレミスの NFS サーバーから AWS にデータを迅速かつ簡単に移行できます。複数の DataSync エージェントを使用して DataSync タスクをスケールアウトする方法についてのステップバイステップ ガイドを読んで終了します。参加するにはラップトップを持参する必要があります。
レポート
Agenda
- 他のクラウドやオンプレミスからAmazon S3へのデータ転送
- データ移行のためのスケールアウトアーキテクチャを構築
- DataSyncをスケールアップして移行を加速する方法を理解する
Single DataSync task and agent
1 つの DataSync エージェントで 1 つのタスクを実行
Google Cloud Storage to Amazon S3
On premises to Amazon S3
Multiple agents for a single task
複数の DataSync エージェントで1 つのタスクを実行
Multiple agents per task
Google Cloud Storage から Amazon S3へのデータ転送で、複数エージェントで一つのタスクを実施
Maximize bandwidth and copy large datasets with multiple tasks
帯域幅を最大化し、複数のタスクで大規模なデータセットをコピーする
Multiple tasks scale out agents
オンプレミスからAmazon S3へのデータ転送で、複数タスクのスケールアウトエージェント
workshop
ワークショップでは事前にCloudFormationによって環境が用意されていましたので、 DataSync エージェントのアクティブ化に必要なDataSyncエージェントのセキュリティグループに HTTP 80ポートをMyIPから許可するところから始めました。
DataSync エージェントをアクティブ化する
DataSync > Agents > Create agent
エージェントは2つ作成しましたが、時間がなくて、2つ使用して実行することはできませんでした。
Google Cloud Storage から AWS へのデータの移行
今回はGoogle Cloud Storage から Amazon S3 へデータを移行しました。 一つの DataSync エージェントを使用して DataSync タスクを開始し、タスク メトリックを観察します。
Google Cloud Storage バケットのファイルを確認
これらのファイルを転送します。
DataSync タスクを作成する
DataSync > AgenTasksts > Create task
Configure source location
- Source location options: Create a new location
- Location type: Object storage
- Agents: Agent-1
- Server: storage.googleapis.com
- Bucket name: gcp-public-data-arco-era5
- Folder: /co/single-level-reanalysis.zarr/
- Authentication Requires credentials is unchecked
Configure destination location
- Destination location options: Create a new location
- Location type: Amazon S3
- S3 bucket: datasync-s3-workshop
- S3 storage class: Standard
- Folder: gcp-to-s3-with-single-agent/
- IAM role: Click Autogenerate button
Configure settings
- Task Name: gcp-to-s3-with-single-agent
- Verify data: Verify only the data transferred
- Set bandwidth limit: Use available
Data transfer configurationを以下のようにしました。
Specific files and folders から、Add Pattern で特定のフォルダ、特定のファイル名で始まるファイルをコピーするように設定します。
/stl1/10* /stl2/10* /stl3/10* /stl4/10*
- Copy object tags: OFF
Loggingでは Autogenerate
をクリックして、Cloudwatch log groupとDataSync による CloudWatch への書き込みを許可する CloudWatch リソース ポリシーが作成します。
内容を確認して、Create task
でタスクを作成します。
DataSync タスクを実行する
タスクのステータスが「Available」となったら、Startをクリックし、Start with defaults オプションをクリックします。
Taskが実行されたらHistory
で進行状況を確認できます。
データスループットは、約 202 MB/秒 でした。また、ファイル転送は約6分かかり 209 ファイル/秒の速度でコピーされたことがわかります。
S3バケットに転送されたか確認してみる
設定通り、転送されていることがわかりました。
まとめ
ビルダーズセッションは60分のワークショップで気軽にAWSのサービスを体験できるので reinvent に参加したときは普段触らないサービスやキャッチアップしたいサービスを選んで毎回いくつか出るようにしています。DataSyncのセッションはリピートセッションが多くて人気がありました。マイグレーションを実施するためにマイグレーションサービスを知りたい人が多いのかなと思いました。またAWS DataSyncを使うことで数ステップでデータ転送が行えることを体験できました。